2.3.2メモ k-最近傍法 - nikkie-memos

2.3.2メモ k-最近傍法

モデルが理解しやすい

ベースラインに向く

処理速度が遅い

うまく機能しないケース

多数の特徴量（数百以上）を持つデータセット（→扱えないためk-最近傍法自体ほとんど使われない）

疎なデータセット（ほとんどの特徴量が多くの場合0）

kNN

モデルの構築は、訓練セットを格納するだけ

クラス分類

kNeighborsClassifier

k-最近傍点の多数派のクラスを採用

多クラス分類も可能

k小 (例: k=1)

複雑なモデル

過剰適合（訓練セットに対する予測は完璧）

k大 (例: k=10)

シンプルなモデル

適合不足

回帰

kNeighborsRegressor

重要なパラメタ

近傍点の数

実用上は3や5程度の小さな数で十分

データポイント間の距離測度

ほとんどの場合、ユークリッド距離でうまくいく

他の距離で試してみたい